Fechar

1. Identificação
Tipo de ReferênciaTese ou Dissertação (Thesis)
Sitemtc-m21d.sid.inpe.br
Código do Detentorisadg {BR SPINPE} ibi 8JMKD3MGPCW/3DT298S
Identificador8JMKD3MGP3W34T/4AQ4DCB
Repositóriosid.inpe.br/mtc-m21d/2024/02.22.13.00
Última Atualização2024:05.08.14.07.17 (UTC) simone
Repositório de Metadadossid.inpe.br/mtc-m21d/2024/02.22.13.00.24
Última Atualização dos Metadados2024:05.08.15.13.45 (UTC) simone
Chave SecundáriaINPE-18825-TDI/3419
Chave de CitaçãoSantana:2024:AlBaAp
TítuloAlgoritmo baseado no aprendizado por reforço para o controle do apontamento de satélites utilizando redes neurais
Título AlternativoReinforcement learning based algorithm for the control of satellite pointing using neural networks
CursoCMC-ETES-DIPGR-INPE-MCTI-GOV-BR
Ano2024
Data2024-02-20
Data de Acesso08 maio 2024
Tipo da TeseDissertação (Mestrado em Mecânica Espacial e Controle)
Tipo SecundárioTDI
Número de Páginas155
Número de Arquivos2
Tamanho10897 KiB
2. Contextualização
AutorSantana, Gabriel Goes Aragão
BancaRocco, Evandro Marconi (presidente)
Chagas, Ronan Arraes Jardim (orientador)
Garcia, Roberta Veloso
Endereço de e-Mailgabrielgoesas@gmai.com
UniversidadeInstituto Nacional de Pesquisas Espaciais (INPE)
CidadeSão José dos Campos
Histórico (UTC)2024-02-23 21:05:31 :: gabriel.santana@inpe.br -> pubtc@inpe.br ::
2024-02-26 12:22:17 :: pubtc@inpe.br -> gabriel.santana@inpe.br ::
2024-03-06 13:53:50 :: gabriel.santana@inpe.br -> administrator ::
2024-03-11 12:00:08 :: administrator -> pubtc@inpe.br ::
2024-03-11 12:00:50 :: pubtc@inpe.br -> gabriel.santana@inpe.br ::
2024-03-22 12:42:53 :: gabriel.santana@inpe.br -> pubtc@inpe.br ::
2024-05-08 15:12:37 :: pubtc@inpe.br -> simone ::
2024-05-08 15:13:17 :: simone :: -> 2024
2024-05-08 15:13:45 :: simone -> :: 2024
3. Conteúdo e estrutura
É a matriz ou uma cópia?é a matriz
Estágio do Conteúdoconcluido
Transferível1
Palavras-Chavecontrole de atitude
controle inteligente
aprendizado por reforço
redes neurais
linguagem Julia
attitude control
intelligent control
reinforcement learning
neural networks
Julia language
ResumoO presente trabalho aplica o paradigma do Aprendizado por Reforço (Reinforcement Learning, RL), um subcampo de Machine Learning, ao problema de controle de atitude de um satélite. Nessa formulação, um agente interage com um ambiente, modificando seu estado ao realizar ações e recebendo uma recompensa - um sinal escalar - de forma a punir ou recompensar suas decisões. Por um processo de tentativa e erro, o agente deve encontrar a forma ótima de agir. Em anos recentes, desenvolvimentos inspirados em novas ideias deram origem a uma variedade de algoritmos, capazes de serem aplicados em uma grande quantidade de ambientes desafiadores. Em sua essência, esses algoritmos utilizam-se de redes neurais artificias (RNAs) para representar suas funções de interesse. Dessa forma, surge a possibilidade de aplicar as técnicas do RL aos problemas de controle tradicional, como o controle de atitude. Dominar essas ferramentas traria ganhos práticos, à medida que permitiria um ajuste automático dos parâmetros do controlador, o controle em situações muito diferentes do cenário nominal e a possibilidade de realização de missões mais desafiadoras e que requeiram uma menor interferência humana. Três algoritmos modernos do RL foram selecionados: DDPG (Deep Deterministic Policy Gradient), TD3 (Twin Delayed DDPG) e SAC (Soft Actor-Critic). Tanto a implementação desses algoritmos quanto a dinâmica de atitude do satélite foram escritas na linguagem Julia. Um cenário em particular, no qual a matriz de momento do inércia do satélite é variável, também é simulado. De maneira a comparar a solução do RL, o controlador proporcional-derivativo (PD) do satélite Amazonia-1 serve como referência. Considerações práticas acerca da estrutura da rede, em termos de função de ativação, topologia e número de camadas são discutidas como forma de inserir conhecimento prévio e acelerar o aprendizado. Dentre os três algoritmos, o SAC mostra-se constantemente o mais estável, não apenas resolvendo o problema convencional como também sendo capaz de controlar de maneira adequada o problema de inércias variáveis. As redes obtidas são relativamente pequenas, o que indica que a implementação nos computadores de bordo é possível. Embora a questão fundamental da estabilidade do RL seja identificada como o maior problema existente para seu uso prático, os resultados indicam que a combinação de RL com ideias do controle convencional pode ser uma forma atraente para a resolução de problemas desafiadores na área espacial. ABSTRACT: The present work applies the Reinforcement Learning (RL) paradigm, a subfield of Machine Learning, to the attitude control problem for a satellite. In this formulation, an agents interacts with an environment, changing its state by selecting actions and receiving a reward - a scalar sign - so as to punish or reward its decisions. By a trial-and-error approach, the agent should learn an optimum way to behave. Driven by novel ideas, recent years have witnessed major developments in the field, leading to a variety of algorithms capable of tackling numerous challenging environments. At its core, these algorithms employ artificial neural networks (ANNs) to represent their functions of interest. This way, a possibility arises of applying RL techniques to traditional control problems, which includes attitude control. Mastering this technique would be of practical importance, as it would allow the automatic tuning of controller parameters, control in situations far from the nominal scenario and it could enable more challenging missions to be carried out, requiring less human interference. Three modern RL algorithms were selected: DDPG (Deep Deterministic Policy Gradient), TD3 (Twin Delayed TD3) and SAC (Soft Actor-Critic). Their implementation as well as the satellite attitude dynamics were written in the Julia language. A particular scenario, in which the satellites moment of inertia matrix is variable, is also simulated. The proportional-derivative (PD) control onboard the Amazonia-1 satellite is used as a reference, allowing a comparison with the RL solutions. Practical considerations concerning the desired network structure in terms of activation function, topology and number of hidden layers are discussed. These points are important as they help by providing previous knowledge to the agent and thus speed up the learning process. Among the three algorithms, SAC constantly proves itself to be the most stable, not only solving the conventional problem but also being able to adequately control the problem of variable inertia. The employed networks are relatively small, which indicates their implementation on real computers used in space missions is feasible. Even though the fundamental issue of stability is identified as the biggest hurdle to real applications, the results indicate that the combination of RL with conventional control ideas may be a promising approach to solve challenging problems in the space sector.
ÁreaETES
Conteúdo da Pasta docacessar
Conteúdo da Pasta source
originais/@4primeirasPaginas (1).pdf 08/05/2024 11:00 173.6 KiB 
originais/Defesa.pdf 27/03/2024 11:51 120.9 KiB 
originais/publicacao.pdf 26/03/2024 09:46 10.4 MiB
Conteúdo da Pasta agreement
autorizacao.pdf 08/05/2024 11:07 90.2 KiB 
4. Condições de acesso e uso
URL dos dadoshttp://urlib.net/ibi/8JMKD3MGP3W34T/4AQ4DCB
URL dos dados zipadoshttp://urlib.net/zip/8JMKD3MGP3W34T/4AQ4DCB
Idiomapt
Arquivo Alvopublicacao.pdf
Grupo de Usuáriosgabriel.santana@inpe.br
pubtc@inpe.br
simone
Visibilidadeshown
Licença de Direitos Autoraisurlib.net/www/2012/11.12.15.10
Detentor dos Direitosoriginalauthor yes
Permissão de Leituraallow from all
Permissão de Atualizaçãonão transferida
5. Fontes relacionadas
Repositório Espelhourlib.net/www/2021/06.04.03.40.25
Acervo Hospedeirourlib.net/www/2021/06.04.03.40
6. Notas
Campos Vaziosacademicdepartment affiliation archivingpolicy archivist callnumber contenttype copyholder creatorhistory descriptionlevel dissemination doi electronicmailaddress format group isbn issn label lineage mark nextedition nexthigherunit notes number orcid parameterlist parentrepositories previousedition previouslowerunit progress readergroup resumeid schedulinginformation secondarydate secondarymark session shorttitle sponsor subject tertiarymark tertiarytype url versiontype


Fechar